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摘 要 基于 计算 机 的 问题 解决 测验 可 以 实时 记录 被 试探 索 环境 和 解决 问题 时 的 详细 行动 痕 
迹 ， 并 保存 为 过 程 数 据 。 首 先 介绍 了 过 程 数据 的 分 析 流程 ， 然 后 从 问题 解决 测验 入 手 ， 分 
别 对 过 程 数 据 的 特征 抽取 和 能 力 估计 建 模 两 方面 的 研究 进行 了 梳理 和 评价 。 未 来 研究 应 注 
意 : 提高 分 析 结 果 的 可 解释 性 ;特征 提取 时 纳入 更 多 信息 ; 实现 更 复杂 问题 情景 下 的 能 力 
评估 ;， 注重 方法 的 实用 性 ， 以 及 融合 与 借鉴 不 同 领域 的 分 析 方 法 。 
关键 词 计算 机 问题 解决 测验 ， 过 程 数据 ， 特 征 抽 取 ， 能 力 评估 模型 


1 引言 


问题 解决 指 当 问题 解决 者 最 初 不 知道 解决 问题 的 方法 时 ， 为 了 达到 特定 目标 而 进行 的 
认 知 加 工 过 程 (Mayer & Wittrock，2006)， 不 论 是 在 教育 还 是 其 他 领域 ， 问 题解 决 的 能 
都 非常 重要 。 为 了 帮助 学 生 适 应 动态 变化 的 社会 ， 培 养 学 生 跨 学科 的 通用 问题 解决 能 力 逐 
渐 受 到 国内 外 的 广泛 关注 ( 陆 环 ，2017)。 国 际 教育 技术 协会 (International Society for 
Technology in Education， 简 称 ISTE〉 在 2007 年 颁布 的 新 版 美国 《国家 学 生 教育 技术 标准 》 
中 将 “批判 性 思维 、 问 题解 决 与 决策 ” 列 为 六 大 能 力 素 质 维度 之 一 ( 王 永 锋 等 ， 2007)。 我 
国教 育 部 在 2014 年 颁发 了 《关于 全 面 深化 课程 改革 落实 立 德 树 人 根本 任务 的 意见 》 首次 
提出 要 研究 制订 学 生发 展 核心 素养 体系 ， 并 提出 要 开展 跨 学 科 主 题 教育 教学 活动 ， 提 高 学 
生 解 决 问题 能 力 。 

近年 来 ， 随 着 对 问题 解决 能 力 培养 的 日 益 关 注 和 信息 技术 的 快速 发 展 ， 越 来 越 多 的 国 
际 化 大 型 评价 项 目 开 始 研发 基于 计算 机 的 问题 解决 能 力 测验 系统 。 如 隶属 于 经 济 合 作 与 发 
展 组 织 (Organization for Economic Co-operation and Development, OECD) 的 国际 学 生 评 价 
项 目 (Programme for International Student Assessment, PISA) 于 2012 年 开展 了 基于 计算 机 
的 仿真 情景 问题 解决 测验 (OECD, 2013)， 于 2015 年 添加 了 人 机 互动 式 的 合作 问题 解决 能 
力 测 验 (OECD, 2017)。2013 年 ， 同 属 OECD 的 国际 成 人 能 力 评估 项 目 (Programme for the 
International Assessment of Adult Competencies, PIAAC) 测量 了 成 人 在 丰富 技术 环境 下 的 问 
题解 决 能 力 (problem-solving in technology-rich environments, PSTRE; Schleicher, 2008). 
由 思科 、 英 特 尔 和 微软 发 起 的 “21 世纪 能 力 的 评价 与 教育 ”(Assessment & Teaching of 21st 
Century Skills, ATC21S) 项 目 以 基于 计算 机 的 人 人 交互 形式 测量 了 学 生 的 合作 问题 解决 能 

(Adams et al., 2015)。 美 国 国家 教育 进步 技术 评估 项 目 (National Assessment of Education 

Progress, NAEP) 的 工程 素养 评估 (Technology and Engineering Literacy assessments, TEL) 
中 也 涉及 了 对 问题 解决 能 力 的 测量 (PumpRepair; TEL, 2013). 

相 比 于 传统 的 纸 笔 测 验 ， 基 于 计算 机 的 问题 解决 测验 可 以 利用 信息 技术 建构 真实 的 任 
务 情境 ， 实 现 被 试 与 测验 任务 的 动态 交互 ， 并 且 能 够 实时 记录 被 试 在 模拟 情景 中 的 反应 过 
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程 ， 将 其 存储 为 过 程 数 据 (process data)。 过 程 数 据 由 具体 任务 和 问题 所 诱发 ， 反 映 了 被 试 

解决 问题 所 运用 的 能 力 和 心智 过 程 ， 是 被 试 潜在 心理 活动 过 程 的 外 在 表现 〈 袁 建 林 ，2018 )。 

过 程 数据 不 但 记录 了 被 试 的 反应 结果 ， 还 记载 了 被 试 的 解答 步骤 ， 相 比 于 传统 的 结果 数据 

可 以 更 多 地 揭示 被 试 的 思维 过 程 ， 过 程 数据 列 含 了 被 试 所 使 用 的 策略 以 及 所 犯错 误 等 解 题 

过 程 信息 ， 有 利于 区 分 低能 力 水 平 被 试 以 及 发 现 不 同 的 错误 类 型 ， 进 而 诊断 错误 原因 ， 为 

改进 教学 提供 针对 性 的 建议 ， 过 程 数据 可 以 用 来 还 原 解 答 过 程 ， 识 别 猜测 行为 。 总 之 ， 过 

程 数 据 对 于 了 解 被 试 解决 问题 的 行为 模式 有 重要 价值 。 

虽然 过 程 数 据 蕴 含 了 丰富 的 信息 ， 如 何 利 用 和 理解 这 些 数据 是 吸 待 解决 的 问题 

(Mislevy, 2019)。 未 经 计 分 的 过 程 数据 常常 以 带 有 时 间 惟 的 字符 串 行 形式 出 现 (Hao et al., 

2015)， 其 中 记录 的 事件 可 以 是 “ 单 击 流 ” 这 种 鼠标 事件 ， 也 可 以 是 被 试 为 完成 任务 所 展现 的 

语言 和 文字 。 这 种 字符 串 行 难以 直接 使 用 传统 的 心理 测量 模型 进行 分 析 ， 首 先 需 要 从 中 提 

取 能 够 反映 潜在 特质 的 特征 。 人 然而， 过程 数据 数量 庞大 ， 结 构 复 杂 ， 难 以 快速 有 效 地 从 中 

第 选 出 有 用 的 信息 或 指标 ， 加 上 过 程 数据 的 时 序 性 、 多 维 性 等 特征 也 对 测量 建 模 提出 了 挑 

战 。 并 且 ， 这 些 行为 表现 是 被 试 解决 问题 过 程 中 的 真实 行为 序列 ， 所 有 行为 带 有 时 间 标 签 ， 

在 时 间 维 度 上 具有 连续 性 、 过 程 性 的 特点 ， 使 用 传统 心理 测量 模型 可 能 要 面临 指标 之 间 非 

> 独立 的 问题 。 

纵 观 国内 外 这 一 领域 的 进展 ， 近 年 来 研究 者 结合 问题 解决 能 力 测评 的 需要 ， 对 于 如 何 

从 复杂 的 过 程 数 据 中 获取 更 多 关于 能 力 估计 的 信息 ， 以 及 如 何 确立 合适 、 准 确 的 能 力 评估 

模型 等 问题 进行 了 探讨 。 为 了 使 方法 学 研究 者 更 便捷 地 了 解 问题 解决 测验 中 过 程 数据 分 析 

的 最 新 进展 ， 以 及 为 实际 应 用 者 提供 分 析 流 程 与 方法 选用 的 参考 信息 ， 本 文 首先 简要 介绍 

了 过 程 数据 分 析 的 流程 ， 其 次 ， 梳 理 了 过 程 数 据 特征 抽取 和 能 力 评估 模型 的 进展 情况 ， 并 

在 此 基础 上 总 结对 比 了 不 同方 法 的 适用 情景 和 优 缺 点 ， 最 后 ， 结 合 目前 过 程 数据 分 析 的 发 
展 趋势 ， 对 其 未 来 研究 方向 进行 了 展望 。 


2 过 程 数据 的 分 析 流 程 


信息 技术 的 发 展 使 得 构建 复杂 的 计算 机 交互 式 测验 成 为 可 能 ， 这 也 激发 了 对 于 新 技术 
环境 下 测验 开发 与 表现 性 评定 的 指导 理论 的 需求 。 目 前 ， 包 括 PISA, ATC21S 在 内 的 大 型 
计算 机 问题 解决 测验 项 目 都 依托 “证 据 中 心 的 设计 ”(Evidence-centred Design, ECD; 


一 Mistevy et al., 2006) 理论 为 整体 设计 模型 。 基 于 ECD 的 测验 开发 与 过 程 数据 收集 、 分 析 过 

© 程 可 以 归纳 为 图 1 所 示 的 5 个 步骤 ， 其 中 “设计 任务 原型 ” 和 “过 程 数 据 的 分 析 ” 与 传统 
的 纸 笔 测验 区 别 最 大 。Von Davier (2017) 和 Mislevy (2019) 等 都 对 过 程 数据 的 分 析 流 程 
提出 了 自己 的 观点 。 
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从 过 程 数据 中 抽取 测量 证 据 
过 程 数据 的 分 析 5 | 
利用 测量 模型 进行 基于 证 据 的 推论 | 
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图 2 计算 心理 测量 学 〈 改 编 自 von Davier, 2017) 

> 以 ECD 理论 为 依据 开发 的 计算 机 交互 式 测验 能 够 以 视频 流 、 音 频 流 和 模拟 日 志文 件 的 
式 收 集 被 试 在 问题 解决 过 程 中 丰富 的 行为 表现 数据 ， 这 些 以 各 种 形式 记录 的 过 程 数据 也 
可 以 统称 为 多 模 态 数据 。 对 多 模 态 数据 进行 处 理 和 分 析 ， 可 以 研究 和 理解 个 人 和 群体 层面 
的 表现 (Amer et al., 2014; Morency et al., 2010; Siddiquie et al., 2013). Von Davier (2017) 
在 多 模 态 层次 方法 (multimodal hierarchical approach; Khan, 2017; Khan et al., 2013) 的 基 
础 上 总 结 了 一 种 适用 于 计算 机 交互 式 测验 中 非 结构 化 数据 的 分 析 框架 一 一 计算 心理 测量 学 
(Computational psychometrics)， 它 将 计算 机 科学 领域 的 数据 驱动 的 研究 方法 (特别 是 机 器 
学 习 和 数据 挖 气 )、 随 机 过 程 理论 和 理论 驱动 的 心理 测量 学 相 混 合 ， 以 便 实时 测量 潜在 能 
其 基本 思想 如 图 2 所 示 : 首先 以 ECD 理论 为 原则 开发 项 目 ， 进 行 测试 ， 并 将 多 模 态 数据 
(过 程 数 据 〉 与 传统 的 测验 项 目 数据 (结果 数据 〉 一 起 收集 ， 测 验 开 发 与 数据 收集 程序 依 
赖 于 人 类 专家 系统 的 理论 输入 ， 是 一 个 自 上 而 下 的 过 程 ， 然 后 使 用 数据 挖 气 (data mining, 
DM) 和 机 器 学 习 (machine learning, ML) 等 算法 对 多 模 态 数据 进行 特征 抽取 (Feature 
extraction) 和 表征 (Representations )， 如 果 确 定 了 新 的 行为 表现 特征 ， 则 可 以 考虑 将 其 纳 
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= 入 之 后 的 心理 测量 模型 建构 中 (Von Davier，2017)， 接 下 来 ， 更 新 测量 模型 ， 并 采用 新 的 
O 样本 重复 这 一 过 程 ， 如 果 数 据 允 许 也 可 以 使 用 随机 过 程 模型 ， 循 环 以 上 过 程 直到 测量 模型 
稳定 。 


Mislevy (2019) 认为 两 个 基本 的 分 析 过 程 有 助 于 解释 和 建 模 过 程 数据 。 第 一 是 描述 给 
定 行为 表现 中 的 证 据 ， 也 就 是 说 ， 从 复杂 多 样 的 过 程 数 据 中 提取 有 用 的 信息 证据 3， 这 类 
似 于 人 类 评分 员 在 评估 被 试 的 复杂 表现 时 其 大 脑 中 隐藏 的 过 程 。 除 了 专家 指定 提取 规则 外 ， 
这 一 分 析 程 序 也 可 以 借助 于 数据 挖掘 、 知 识 工程 (knowledge engineering) 和 计算 语言 学 
(computational linguistics) 等 技术 完成 (Bejar et al., 2016)。 第 二 是 测量 建 模 。 在 基于 计算 
机 的 测验 中 ,我们 可 以 追踪 、 积 累 和 综合 行为 表现 过 程 中 的 证 据 ， 并 构建 目标 构 念 
construct) 的 操作 化 变量 。 这 些 行为 表现 特征 依赖 于 被 试 的 潜在 特征 ， 它 们 之 间 的 概率 
关系 可 以 被 测量 模型 所 建构 。 

综合 以 上 观点 ， 对 于 计算 机 问题 解决 测验 中 过 程 数据 的 分 析 包 含 了 两 个 主要 步骤 : 从 
过 程 数 据 中 抽取 有 关 被 试 潜在 能 力 的 可 解释 信息 ， 以 及 利用 抽取 的 信息 对 被 试 的 能 力 进行 
估计 。 在 信息 提取 阶段 ， 分 别 有 依 赖 于 专家 的 自 上 而 下 的 方式 ， 和 数据 驱动 的 自 下 而 上 的 
方式 ， 而 在 能 力 估计 阶段 ， 可 以 采用 传统 的 心理 测量 学 模型 ， 若 数据 允许 ， 也 可 以 选择 随 
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机 过 程 模型 。 以 下 分 别 对 过 程 数据 分 析 的 这 两 个 核心 步骤 -一 特征 抽取 和 能 力 评估 的 最 新 


研究 进展 进行 梳理 


与 总 结 。 


3 过 程 数据 的 特征 抽取 方法 


3.1 自 上 而 下 的 特征 抽取 方法 


自 上 而 下 的 特 和 


E 抽 取 方 法 指 以 问题 解决 的 概念 机 
定 从 过 程 数 据 中 寻找 与 问题 解决 构 念 元 素 相关 联 的 有 意义 行为 模式 的 


下 而 上 ) 两 种 方式 。 


E 架 为 基础 ， 结 合 


3 所 示 : 专家 组 在 测验 概念 框架 的 基础 上 ， 和 针对 每 一 个 


涵 规 定 其 操作 性 定义 以 及 在 任务 中 可 


值 规则 。 


标 提取 规则 后 ， 还 需要 将 其 转换 为 程序 和 
为 指标 及 其 赋值 规则 的 有 效 物 
答 过 程 中 的 认 知 过 程 ;在 使 月 
专家 对 提取 的 指标 进行 打分 ， 并 对 计 
检验 ， 一 致 性 程度 可 以 采用 Kappa 系数 来 衡量 。 


般 需 组 乡 


\ 多 位 专家 进行 行为 指标 的 设计 、 订 


能 的 表现 水 平 ， 


\ 体 任务 ， 
过 程 ， 具 体 过 程 如 图 
体 的 任务 情景 ， 都 要 基于 构 念 内 
并 以 此 制定 详细 的 过 程 指标 提取 及 赋 
FE 审 和 修改 的 迭代 工作 。 在 确定 了 指 


目前 从 问题 解决 测验 过 程 数 据 中 抽取 关键 特征 或 有 意义 的 行为 指标 的 方法 主要 有 理论 
驱动 〈 自 上 而 下 ) 和 数据 驱动 〈 自 


由 专家 制 


法 ， 以 实现 过 程 数据 的 自动 化 抽取 。 为 了 确保 行 


这 种 方式 是 目前 国际 大 型 问题 解决 测验 系统 的 主流 评分 方式 。PISA2012 问题 解决 测验 ， 


E， 在 指标 ] 


FE 分 者 之 间 以 及 


纲 则 编写 阶段 需要 专家 组 非常 ; 
自动 化 程序 获得 被 试 过 程 数据 的 指标 得 分 后 ， 
自动 化 评分 结果 之 间 的 一 致 性 程度 进行 


拆 地 理解 被 试 在 作 


还 应 组 织 领域 


ATC21S 项 目的 合作 问题 解决 测验 (Adams etal., 2015), NAEP-TEL 测验 (Shu etal.,2017) 


等 都 采 


究 中 ， 研 究 者 也 针对 不 同 任务 


Rosen, 2017; Yuan et al., 2019; Zoanetti, 2010; RÆK, 2018). ZAT. 
要 专家 组 为 每 个 具体 任务 制定 特定 的 评分 规则 ， 即 存在 任务 特异 怕 
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编写 计算 机 自动 提取 
程序 


Vv 


自 上 而 下 的 特征 提取 流程 


3.2 自 下 而 上 的 特征 抽取 方法 


为 了 解决 理论 驱动 方法 的 任务 特异 性 问题 ， 有 研究 者 尝试 采 上 月 


输出 值 


了 专家 定义 的 过 程 数 据 指标 提取 与 计 分 方法 。 在 其 它 一 些 涉及 过 程 数据 分 析 的 在 
制定 了 相应 的 过 程 数据 编码 计 分 规则 〈 如 Harding et al., 2017; 


自 上 而 下 的 方式 需 


问题 ， 且 成 本 很 高 。 


数据 驱动 的 方法 直接 从 


过 程 数 据 记 录 的 反应 序列 中 提取 信息 。 这 类 方式 目前 尚 处 于 初步 探索 阶段 ， 并 没有 形成 统 
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一 的 分 析 范 式 ， 大 多 数 方法 都 是 借鉴 其 他 领域 的 现 有 算法 。 根 据 这 些 方法 的 处 理 思想 和 来 
源 领域 ， 可 以 将 自 下 而 上 的 过 程 数 据 特征 抽取 方法 分 为 以 下 三 类 : 将 反应 序列 类 比 于 字符 
串 行 ， 借 用 自然 语言 处 理 (Natural Language Processing, NLP) 技术 由 反应 序列 建构 指标 的 
方法 (He et al., 2021; He & Von Davier，2016); 使 用 降 维 算法 构造 反应 序列 的 低 维 数 字 特 
征 向 量 的 方法 (Tang，Wang， et al., 2021; Tang et al., 2020); 以 及 使 用 有 向 图 表征 反应 序 
列 ， 并 使 用 网 络 指 标 表 征 反 应 特征 的 方法 CVista et al., 2017; Zhu et al., 2016)。 
3.2.1 基于 自然 语言 处 理 的 特征 抽取 方法 

过 程 数据 中 记录 的 行为 操作 序列 可 以 被 编码 为 带 有 时 间 稚 的 字符 串 序 列 (Hao et al., 
2015)， 如 “开始 ， 操 作 1， 操 作 2， 操 作 3， 结 束 ”， 因 此 有 研究 者 提出 可 以 将 操作 序列 类 比 
于 自然 语言 中 的 字 词 ， 使 用 NLP 领域 的 分 析 方 法 从 中 提取 信息 ， 目 前 采用 的 技术 主要 有 N- 
Gram， 编 辑 距离 (edit distance) 和 基于 最 大 公共 子 序列 (Longest Common Subsequence， 
LCS) 的 指标 这 几 种 方法 。 

N-Gram 是 一 种 基于 统计 语言 模型 的 算法 ， 它 对 文本 中 长 度 为 的 字符 序列 进行 提取 ， 
并 对 每 个 短 序列 进行 统计 ， 过 滤 掉 低频 序列 后 ， 形 成 文本 的 向 量 特征 空间 ， 每 一 个 短 序列 
就 是 一 个 特征 向 量 维度 。 将 N-Gram 应 用 于 过 程 数 据 即 提取 反应 序列 中 长 度 为 N 的 操作 序 
> 列 并 统计 ， 有 研究 者 据 此 识别 关键 操作 序列 ， 如 He 和 Von Davier (2016) 采用 N-Gram 对 
~N PIAAC 问题 解决 题目 中 的 反应 序列 进行 表征 ， 并 以 频率 -逆序 列 (term frequency and inverse 
Cy sequence frequency, TF-ISF) 加 权 ， 获 得 每 种 操作 序列 的 特征 向 量 ， 然 后 以 被 试 作 答 的 最 终 
结果 分 组 ， 使 用 卡 方 检验 识别 出 与 成 功 解决 问题 相关 的 关键 操作 序列 。 还 有 研究 者 为 提取 
© 的 N-Gram 赋予 认 知 含义 ， 以 进一步 用 于 测量 建 模 ， 如 李 美 娟 〈2020) 在 使 用 N-Gram 识别 
N 出 关键 短 操作 序列 的 基础 上 ， 进 一 步 组 织 专 家 为 其 赋予 认 知 含义 ， 以 此 定义 合作 问题 解决 
任务 中 的 行为 指标 。Zhan 和 Qiao (2020) 直接 为 过 程 中 的 短 操 作 序 列 N-Gram) 赋予 认 
知 含义 ， 用 于 诊断 分 类 分 析 。 利 用 N-Gram 提取 操作 短 序列 的 方法 计算 简单 ， 容 易 实现 ， 
还 可 以 经 由 专家 定义 构造 行为 指标 。 然 而 ，N-Gram 假设 第 NN 个 操作 的 出 现 只 与 前 面 N-1 个 
操作 相关 ， 与 其 它 任 何 操作 都 不 相关 ， 因 此 该 方法 尽管 考虑 了 相 邻 的 操作 ， 仍 丢失 了 操作 
序列 中 的 大 部 分 顺序 信息 。 并 且 ， 采 用 这 种 方式 得 到 的 特征 向 量 维度 数 等 于 所 有 N-Gram 
的 总 数 ， 当 可 采取 的 行为 数量 较 多 时 ， 维 度数 将 非常 庞大 。 此 外 ，N-Gram 还 依赖 于 反应 序 
列 的 记录 方式 ， 一 旦 反应 序列 的 编码 方式 发 生 改 变 ，N-Gram 的 形式 与 数量 也 会 受到 影响 。 
对 于 已 知 最 佳 表现 对 应 的 操作 序列 的 测验 任务 ， 很 容易 想到 直接 根据 被 试 的 作答 序列 
与 最 佳作 答 序 列 的 相似 程度 来 评价 被 试 的 表现 ， 目 前 已 有 研究 者 借用 NLP 中 的 编辑 距离 和 
最 大 公共 子 序列 (LCS) 来 衡量 它们 之 间 的 相似 度 / 差 异 。 编 辑 距离 又 称 Levenshtein 距离 ， 
指 两 个 字符 串 之 间 ， 通 过 替换 、 揪 入 或 删除 字符 的 编辑 操作 ， 由 一 个 转 成 另 一 个 所 需 的 最 
少 编辑 次 数 (Levenshtein, 1966)。 两 个 字符 串 之 间 的 距离 越 大 ， 说 明 它 们 越 不 同 。Zhan 等 
(2015) 通过 比较 被 试 在 NAEP-TEL 泵 修理 任务 (PumpRepair; TEL, 2013) 中 的 操作 序列 
与 最 佳 序列 之 间 的 Levenshtein 距离 衡量 了 他 们 的 表现 。 最 大 公共 子 序列 指 两 个 给 定 字符 串 
的 最 长 公共 部 分 ，He 等 《2021) 基于 被 试 反应 序列 和 最 佳 反 应 序列 的 LCS 构建 了 评估 反应 
序列 相似 性 (Similarity〉 和 有 效 性 (Efficiency〉 的 指标 。 利 用 被 试 的 作答 序列 与 最 佳 序列 
的 距离 /相似 程度 来 构造 行为 指标 的 方法 同样 计算 简单 、 容 易 实 现 ， 并 且 指 标 含义 明确 ， 易 
于 理解 。 然 而 这 些 指标 也 依赖 于 编码 形式 ， 并 且 其 高 度 概 括 性 会 导致 过 程 数 据 中 很 多 有 用 
言 息 的 丢失 ， 使 其 难以 区 分 不 同 的 行为 模式 。 
3.2.2 使 用 降 维 算法 获得 操作 序列 的 低 维 表征 

为 了 提取 反应 序列 中 的 所 有 过 程 信息 ， 有 研究 者 提出 使 用 降 维 算法 ， 如 自 编 码 器 
(autoencoder) 和 多 维 尺 度 分 析 (multidimensional scaling, MDS)， 获 取 反 应 序列 的 数字 特 
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征 向 量 ， 所 提取 的 数字 向 量 可 用 来 预测 被 试 的 表现 或 提高 能 力 估计 精度 。 
自 编码 器 是 一 类 经 典 的 人 工 神 经 网 络 ， 常 用 于 降 维 、 数 据 降 噪 、 计 算 机 可 视 化 等 
(Goodfellow et al.,2016). Tang 和 Wang 等 〈2021) 使 用 序列 对 序列 (sequence-to-sequence) 
的 自 编 码 方法 将 被 试 的 反应 序列 压缩 为 标准 的 数字 向 量 9， 他 们 认为 9 中 包含 有 关 原 始 数据 
的 复杂 信息 ， 可 以 将 其 类 比 为 项 目 反 应 理论 (item response theory, IRT) 模型 中 的 潜在 能 
力 ， 而 解码 器 则 可 以 被 类 比 于 项 目 反应 函数 。 多 维 尺度 分 析 则 是 根据 研究 对 象 两 两 之 间 的 
距离 ， 将 它们 投射 到 一 个 直观 的 低 维 向 量 空间 中 ， 是 另 一 种 将 多 维 空间 的 研究 对 象 〈 样 本 
或 变量 ) 简化 到 低 维 空间 进行 定位 、 分 析 和 归 类 ， 同 时 又 保留 对 象 间 原 始 关系 的 数据 分 析 
方法 〈 骆 文 淑 ， 赵 守重 ，2005)。Tang (2020) 构造 了 一 个 计算 两 个 操作 序列 之 间 不 相 
似 度 的 函数 ， 然 后 采用 MDS 分 析 操 作 序 列 两 两 之 间 的 距离 ， 获 得 了 每 个 操作 序列 的 低 维 向 
量 表征 6。Tang 和 Wang “ (2021) 和 Tang 等 (2020) 的 研究 都 发 现 由 降 维 算法 获得 的 低 
维 向量 9， 对 被 试 在 其 他 项 目 和 认 知 测验 上 表现 的 预测 准确 性 比 使 用 结果 变量 预测 时 更 高 。 
这 种 利用 降 维 算法 获取 操作 序列 的 低 维 数字 向 量 的 方法 ， 不 依赖 于 先 验 知识 和 过 程 数 
据 的 编码 ， 获 取 的 低 维 向 量 9 包 含 过 程 信息 ， 可 以 进一步 被 用 于 对 反应 模式 进行 聚 类 、 可 
g 视 化 以 及 预测 被 试 的 未 来 表现 等 ， 因 而 可 以 作为 一 种 通用 的 特征 抽取 方法 。 然 而 ， 这 种 方 
~ 式 的 最 大 问题 是 难以 解释 ， 低 维 表 征 向 量 9 不 具备 明确 的 心理 学 含义 。 
` 3.2.3 借助 网 络 指标 描述 反应 过 程 特征 的 方法 
社会 网 络 分 析 (Social Network Analysis, SNA) 可 以 通过 对 关系 数据 的 系统 分 析 来 考察 
关系 结构 及 其 网 络 的 特征 〈 徐 伟 等 ，2011)。 过 程 数 据 中 记录 的 反应 序列 不 是 独立 活动 的 
© 集合 ， 它 们 蕴含 了 被 试 在 解决 问题 时 候 的 活动 顺序 ， 使 用 有 向 图 可 以 直观 地 展现 反应 的 变 
N 化 过 程 ， 进 而 可 以 使 用 SNA 指标 对 反应 过 程 的 特征 进行 描述 。 有 向 图 可 以 表征 个 体 的 操作 
序列 也 可 表征 群体 的 反应 过 程 。 如 Zhu 等 〈2016) 根据 每 位 被 试 在 NAEP-TEL 泵 修理 任务 
中 的 反应 序列 构造 了 表现 操作 之 间 相 互 依存 关系 的 加 权 有 向 图 (Wasserman & Faust, 1994). 
而 Vista (2017) 将 任务 状态 和 被 试 的 对 话 事 件 作 为 网 络 节 点 ， 事 件 之 间 的 先后 顺序 作为 
连 线 ， 分 别 对 ATC21S 的 橄榄 油 (Olive Oi1) 任务 中 的 高 能 力 组 和 低能 力 组 构造 了 被 试 群体 
的 网 络 图 。 可 以 用 来 刻画 反应 过 程 网 络 的 特征 指标 有 度 (density)、 中 心 化 (centralization)、 
描述 局 部 模式 特征 的 互惠 二 元 体 (reciprocity) 和 三 元 体 (triad census; Davis & Leinhardt, 
1972; Wasserman & Faust, 1994)、 突 出 (prominence)、 分 支 (branches)、 集 群 (clusters) 
和 最 短路 径 (shortest paths; Vista et al.，2016) 等 。 不 同 成 绩 / 能 力 的 被 试 /被 试 群体 的 反应 
过 程 网 络 指标 存在 差异 (Zhu et al., 2016; Vista et al., 2017)， 对 被 试 表现 有 一 定 的 预测 作用 。 
此 类 方法 的 特点 是 将 反应 序列 视 为 一 个 整体 过 程 ， 而 不 是 关注 单个 事件 。 使 用 网 络 图 
表征 反应 序列 可 以 直观 地 呈现 反应 模式 ， 进 而 可 以 使 用 SNA 指标 描述 反应 过 程 的 特征 。 该 
方法 面临 的 主要 挑战 之 一 是 数据 的 复杂 性 ， 需 要 大 量 的 数据 清理 与 预 处 理 。 另 一 方面 ， 使 
] SNA 指标 描述 反应 过 程 有 向 图 的 特征 时 ， 只 能 获取 网 络 的 结构 特征 ， 丢 失 了 反应 顺序 信 
息 ， 而 且 无 法 捕获 节点 的 内 容 信 息 ， 也 损失 了 具体 反应 类 型 的 信息 ， 难 以 用 来 对 被 试 的 表 
现 水 平 进行 进一步 推断 。 
3.3 特征 提取 方法 简 评 
综 上 上 所 述 ， 采 用 自 上 而 下 方式 定义 的 行为 指标 与 概念 框架 有 紧密 的 对 应 关系 ， 有 具备 可 
解释 性 和 明确 的 得 分 ， 可 以 如 传统 测验 中 的 题目 一 般 ， 直 接 利用 心理 测量 模型 分 析 ， 获 得 
被 试 的 潜在 能 力 估计 值 。 然 而 ， 此 类 指标 建构 方法 的 工作 量 巨 大 。 特 别 的 ， 在 复杂 任务 中 ， 
专家 可 能 遗漏 或 忽视 未 知 的 、 以 往 未 被 关注 的 学 生 思维 过 程 ， 从 而 造成 信息 的 遗漏 和 损失 。 
数据 驱动 的 自 下 而 上 的 特征 抽取 方式 部 分 解决 了 专家 建立 评分 规则 的 任务 特异 性 问题 ， 
所 提取 的 特征 可 用 于 探索 不 同 被 试 群体 的 行为 模式 特点 ， 预 测 被 试 在 未 来 的 表现 ， 在 经 专 
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家 定义 后 也 可 被 用 来 进行 能 力 估计 ， 
定价 值 。 然 而 ， 这 类 方法 也 不 一 定 能 
测 心理 特质 之 间 的 关联 并 不 明确 。 本 
过 程 数 据 特征 抽取 方法 分 为 三 大 类 ， 
存在 一 些 局 限 性 。 如 借用 NLP 构建 指标 的 方法 依赖 原始 编码 ， 且 指标 大 多 过 于 笼统 ， 信 息 


损失 大 ， 其 中 编辑 


对 于 测试 和 任务 开发 以 及 评分 规则 的 改进 方面 都 有 一 
保留 过 程 数据 中 所 有 的 信息 ， 并 且 所 获得 的 指标 与 所 


方法 也 仅 适 用 于 可 执行 操作 较 少 的 任 
整个 反应 序列 的 信息 ， 可 以 用 于 预测 


模型 (Zhang et al., 2020)， 但 此 类 方法 抽取 的 特征 缺乏 可 解释 性 。 最 后 ， 使 用 网 络 指标 


文 根 据 来 源 领域 和 处 理 思想 将 问题 解决 中 自 下 而 上 的 
经 过 上 述 介 绍 可 以 发 现 ， 这 三 类 方法 在 信息 利用 上 各 


E 离 和 基于 LCS 的 方法 仅 适 用 于 存在 最 佳 解决 方案 的 任务 情景 ，N-gram 


务 ; 使 用 降 维 算法 获取 的 反应 过 程 数字 表征 ， 保 留 了 
分 析 ， 也 有 研究 提出 了 利用 此 类 过 程 信息 的 能 力 估 计 


述 反 应 过 程 特征 的 方法 可 以 对 反应 过 程 可 视 化 ， 并 且 用 于 探索 不 同 群 体 的 反应 模式 特点 ， 
但 该 类 方法 难以 捕获 具体 操作 信息 ， 且 抽取 的 特征 无 法 直接 用 于 被 试 能 力 的 估计 。 因 此 ， 


数据 到 


动 的 特征 抽取 方法 同样 可 能 


临 信息 遗漏 的 问题 ， 且 具有 可 解释 性 问题 ， 利 用 此 类 


特征 进行 能 力 估计 的 研究 非常 少 ， 因 此 纯粹 数据 驱动 的 特征 抽取 方法 尚未 直接 应 用 于 大 规 


模 标准 化 测试 的 能 力 评估 中 。 各 种 特征 抽取 方法 的 特点 可 以 归纳 如 表 1。 


ra 


表 1 基于 计算 机 的 问题 解决 测验 过 程 数 据 的 特征 抽取 方法 总 结 


算法 适用 情景 分 析 目 的 后 续 分 析 E 不 中 
有 理论 依据 ， 强 。 ，、，。、 
Hill RE PES) BF - — : ` = 
fering 所 有 类 型 的 任务 构建 指标 提取 和 计 分 规则 ] 于 能 力 估计 REE BATI AAT 
i : 统 测量 模型 分 析 “~ 
Nirai ATID IE ”构建 行 为 指标 ， 获 得 反应 序列 特征 向 量 。 让 于 全 于， moe 
IR ne Biome 2 ELAD AAN 
基于 NLP 编辑 距离 存在 最 佳 解决 路 径 的 任务 ”构建 一 个 反应 表现 水 平 的 指标 完善 评分 规则 遗漏 顺序 信息 
` 工 A. Aer fee vt. a] Ei gi SS Lb ats AN Pal EE hal Si fee} i = 员 
基于 LCS 的 指标 ”存在 最 佳 解决 路 径 的 任务 ”以 跨 任务 概括 的 方式 表征 解决 问题 的 策 比较 不 同 群体 问题 解决 信息 损失 大 
略 特点 策略 的 特点 
Ae 将 反应 序列 用 数字 特征 向 量 表 和 ， ener 
z hi AT y 右 类 型 也 x AVA A PAPAL JAY E Es L (ESTEAR Ah SS TT fe EZ 
a a ee 以 提取 反应 序列 中 的 全 部 信息 认 知 特征 上 的 表现 ; ERMAS IE. 
来 提高 能 力 估计 精度 
UV an LA DWRN: 预 处 理 程序 复杂 
网 络 分 析 。 社会 网 络 分 析 所 有 类 型 的 任务 的 可 人 分 析 高 低 组 反应 模式 差 可视化 难以 捕获 网 络 节 点 内 涵 
HE M 无 法 直接 应 用 于 能 力 估计 
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4 过 程 数 据 能 力 评估 模型 

在 从 过 程 数 据 中 抽取 出 行为 指标 /特征 后 ， 需 要 构建 它们 与 潜在 能 力 之 间 的 概率 关系 模 
型 ， 以 实现 对 能 力 的 估计 。 根 据 模型 是 否 利用 了 指标 之 间 的 顺序 关系 ， 以 及 能 否 获 得 连续 
可 解释 的 潜在 能 力 估 计 值 ， 可 以 将 目前 利用 过 程 信息 估计 潜在 能 力 的 方法 分 为 以 下 三 类 : 
传统 心理 测量 模型 及 其 拓展 模型 ， 随 机 过 程 模 型 ， 以 及 结合 了 随机 过 程 思 想 的 测量 模型 。 
4.1 传统 心理 测量 模型 及 其 拓展 
由 专家 定义 获得 的 行为 指标 直接 对 应 于 测验 概念 框架 中 的 构 念 元 素 ， 可 以 类 比 于 传统 
测验 中 的 题目 拟 合 测量 模型 。 针 对 多 维 的 测验 结构 ， 可 以 使 用 多 维 RT 模型 和 诊断 分 类 模 
型 同时 估计 多 个 维度 上 的 能 力 或 者 诊断 多 个 技能 的 掌握 程度 (e.g., Hesse et al., 2015; Siddiq 
et al., 2017; Yuan et al., 2019; Zhan & Qiao, 2020); 若 测验 以 小 组 形式 进行 ， 还 可 以 拟 合 
多 水 平 模型 (Wilson et al., 2017)。 除 了 直接 采用 现 有 的 心理 测量 模型 进行 分 析 ， 也 有 研究 
者 根据 过 程 数据 的 特点 对 传统 测量 模型 或 其 评估 步骤 进行 了 拓展 〈 李 美 娟 等 ，2020; Liu et 
al., 2018; Zhang et al., 2020). 
4.1.1 SHE IRT 模型 

当 从 过 程 数 据 中 提取 的 行为 指标 对 应 于 问题 解决 操作 性 概念 框架 中 的 多 个 元 素 / 子 维度 
时 (Hesse et al., 2015; OECD, 2013; Rosen,2017)， 可 以 采用 多 维 IRT 模型 对 被 试 在 多 个 子 
维度 上 的 表现 水 平 进行 估计 。 如 有 研究 采用 多 维 随机 系数 多 项 logit AY (Multidimensional 
Random Coefficients Multinomial Logit Model, MRCMLM; Adams et al., 1997) 对 ATC21S 
的 多 项 合作 问题 解决 测验 的 行为 指标 进行 了 分 析 ， 获 得 了 被 试 小 组 在 多 个 维度 上 的 能 力 佑 
计 值 ， 并 且 发 现 使 用 多 维 IRT 模型 的 拟 合 效 果 要 好 于 使 用 单 维 IRT 模型 对 几 个 维度 分 开 估 
计时 (Hesse et al., 2015; Siddiq et al., 2017)。 指 标的 多 维 性 除了 对 应 于 目标 能 力 的 多 个 子 
维度 外 ， 还 可 以 对 应 于 合作 解决 问题 小 组 内 的 不 同 成 员 。Yuan 等 〈2019) 在 分 析 一 个 以 两 
人 小 组 为 测试 单元 的 < 人 人 入 交互 ”模式 的 合作 问题 解决 测验 时 ， 将 抽取 的 行为 指标 按照 实施 
主体 区 分 为 被 试 个 体 的 和 小 组 共同 的 ， 使 用 项 目 内 多 维 的 MRCML 模型 分 析 ， 实 现 了 对 个 
体 的 表现 以 及 小 组 内 成 员 间 影响 强度 的 估计 。 
4.1.2 多 水 平 (多 维 ) IRT 模型 

问题 解决 测验 的 过 程 数 据 具 有 髓 套 结构 ， 过 程 指 标 髋 套 于 被 试 个 体 ， 在 一 些 合作 问题 
解决 测验 中 ， 被 试 个 体 又 嵌 套 于 小 组 ， 因 此 适用 于 多 水 平分 析 。Wilson 等 (2017) 在 两 水 
平 Rasch 模型 (Kamata & Cheong, 2007; Raudenbush et al., 2003) 的 基础 上 加 入 了 小 组 水 平 
s， 以 过 程 指 标 为 第 一 水 平 、 被 试 个 体 为 第 二 水 平 、 合 作 小 组 为 第 三 水 平 构造 了 一 个 三 水 平 
的 Rasch 模型 ， 并 分 别 利 用 单 维和 多 维 的 Rasch 模型 、 以 及 多 水 平 的 单 维和 多 维 Rasch 模型 
对 ATC21S 项目“ 数字 网 络 中 的 学 习 -信息 通讯 技术 ”主题 下 的 合作 问题 解决 测验 数据 进行 了 
分 析 ， 结 果 表 明 无 论 使 用 单 维 还 是 多 维 ， 考 虑 了 组 效应 的 多 水 平 Rasch 模型 拟 合 都 更 好 。 
4.1.3 诊断 分 类 模型 

诊断 分 类 模型 (diagnostic classification models, DCM) 是 一 类 对 几 个 细 粒 度 离 散 潜 在 
属性 和 观察 到 的 项 目 反 应 之 间 的 关系 进行 建 模 的 限制 性 或 验证 性 潜在 类 别 心理 测量 模型 
(von Davier & Lee, 2019). Zhan 和 Qiao (2020) 提出 了 一 种 将 诊断 分 类 融入 过 程 数据 分 
析 的 方法 : 将 反应 序列 中 的 相 邻 短 操作 序列 〈N-Gram) 视 为 过 程 项 目 ， 并 以 其 是 否 出 现 转 
换 为 0-1 编码 ;然后 以 产生 这 些 操作 序列 所 需 的 问题 解决 技能 为 潜在 属性 ， 给 过 程 项 目标 
E Q 和 矩阵， 最 后 使 用 高 阶 诊断 分 类 模型 进行 分 析 。 使 用 高 阶 DCM 分 析 过 程 数 据 可 以 在 评 
估 被 试 连续 的 潜在 问题 解决 能 力 的 同时 ， 根 据 被 试 的 问题 解决 策略 对 其 进行 分 类 ， 然 而 使 
用 N-Gram 构建 二 分 编码 的 过 程 指标 ， 丢 失 了 反应 序列 的 整体 先后 顺序 以 及 N-Gram 的 频率 


ao 
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音 息 ;此 外 ， 在 更 加 复杂 的 任务 中 ， 由 N-Gram 构建 的 过 程 项 目 数量 庞大 ， 其 QERRE 
的 成 本 非常 高 。 
上 述 这 些 研究 都 是 现 有 心理 测量 模型 在 分 析 过 程 指标 上 的 新 尝试 ， 没 有 对 模型 本 身 提 


出 改进 ， 且 都 需要 专家 明确 定义 行为 指标 与 测量 构 念 问 的 关系 。 
4.1.3 改进 的 多 水 平 混合 IRT 模型 


为 了 在 考虑 过 程 数 据 藤 套 性 质 的 基础 上 ， 同 时 探讨 被 试 反应 过 程 中 采取 的 不 同 策略 ， 


:所 
Liu 等 


MMixIRT; Cho & Cohen, 2010) 进行 了 拓展 ， 
AIRT (modified MMixIRT, mMMixIRT) 模型 。 


事先 判定 各 个 操作 的 正 误 。 在 过 程 水 平 上 ， 将 所 有 操作 的 累计 信息 《〈 计 分 ) 

定义 设计 和 矩阵 A 以 决定 个 体 
mMMixIRT 不 仅 可 以 在 过 程 水 平分 析 反 应 策 
个 体 水 平 上 的 能 力 值 。 为 了 避免 mMMixIRT 模 
以 满足 的 问题 ， 李 美 娟 等 〈2020) 在 


的 过 程 数 据 ， 在 个 体 水 平 上 ，mMMixIRT 可 以 自 
所 用 到 的 信息 ， 比 MMixIRT 模型 设 定 更 灵活 。 
略 类 别 特征 ， 还 可 以 同时 估计 出 过 程 水 平和 
型 中 各 潜在 类 别 内 能 力 正 态 分 布 的 前 提 


Be We x 


(2018) 对 多 水 平 混合 项 目 反 应 理论 模型 (Multilevel Mixture Item Response Theory, 
提出 适用 于 处 理 过 程 数据 的 改进 的 多 水 平 混 
该 方法 首先 穷 举 了 任务 中 的 所 有 操作 ， 并 


芷 为 特定 步骤 
层面 能 力 估计 


mMMixIRT 模型 基础 上 做 了 进一步 的 修正 ， 在 过 程 水 平 上 仅 区 分 策略 类 别 ， 不 再 估计 过 程 


= 能 力 。 这 种 穷 举 式 的 计 分 方式 
人 数据 ， 但 这 种 特殊 编码 方式 也 具有 任务 特异 性 的 问题 ， 


4.1.5 两 步 条 件 期 望 方法 


的 反应 过 程 向 量 、 结 果 向 量 和 由 
量 可 以 由 前 述 自 编码 和 MDS 等 方法 抽取 。 综 合 


的 新 的 能 力 估计 值 6x, 的 构造 流程 如 下 : 


E 


第 一 步 ， 做 Br。 对 Xa, 的 


4, 获得 Tx = E[6y p |Xp,]- 


第 二 步 :， 做 多。 对 Tx 的 回归 ， 获 得 Bx,, = E[6y, |Tx]。 


Sz, Xz, 
1 .6 4 
Yg, —— Urs, —— Tx 
Yz, = by, 一 一 > 6x, 
ĝe, 


图 


4 两 步 条 件 期 望 法 构造 潜在 特质 估计 值 gx。 的 流程 


若 交换 Bi 和 B2， 同 理 


为 过 程 特征 抽取 方法 ， 使 
行 了 分 析 。 结 果 发 现 ， 相 比 于 单纯 基于 结果 
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© 为 了 在 对 潜在 特质 进行 佑 计时 纳入 过 程 信息 以 提高 估计 精 
C 了 两 步 条 件 期 望 方法 (two-step conditional expectation )。 该 方法 的 实施 步骤 如 图 4 所 示 。 首 


先 将 项 目 集 拆 分 成 B 和 Bs 两 部 分 ，Xp,、YB, 和 Gys (i = 1,2) 分 别 代表 被 试 在 第 i 个 项 


结果 向 量 〈 基 于 IRT 模型 ) 估计 出 的 潜在 能 力 值 。 过 程 向 
了 被 试 在 项 目 集 B1 上 的 结果 作答 和 反应 过 程 


两 步 条 件 期 望 方法 对 PIAAC 2012 的 14 个 PSTRE 项 
作答 的 估计 值 ， 基 于 过 程 的 潜在 特质 估计 值 与 


使 得 mMMixIRT 模型 利用 了 被 试 在 解答 过 程 中 每 一 步 的 作答 
并 且 mMMixIRT 模型 对 被 试 水 平 的 
能 力 估 计 是 根据 被 试 在 最 后 一 步 上 的 作答 得 到 的 ， 即 并 未 包含 过 程 中 的 顺序 信息 。 


度 ，Zhang 等 (2020) 提出 


子 集 


(Zhang et al., 2020) 


可 得 gx o Zhang (2020) 以 MDS (Tang, Wang, et al., 2021) 作 


的 数据 进 
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类 似 任务 的 表现 有 更 高 的 一 致 性 ; 


这 种 方法 直接 利用 降 维 算 法 抽取 过 程 向 量 ， 所 以 在 信息 的 利用 上 有 具有 解释 性 问题 。 


4. 2 随机 过 程 模型 


(Dynamic Bayesian Network, DBN). 


4.2.1 隐 马 尔 可 夫 模 型 


HMM 是 关于 时 序 的 概率 模型 ， 描 述 | 


在 问题 解决 测验 或 类 似 平台 中 ， 被 试 解决 任务 的 步 又 可 以 被 视 为 沿 着 离散 时 间 点 的 连 
续 反 应 过 程 ， 过 程 中 的 反应 序列 相互 依赖 (Bellman，1957; Puterman，1994)。 因 
采用 描述 随机 过 程 的 概率 模型 对 前 后 依赖 的 过 程 指标 进行 拟 合 ， 并 获得 
状态 水 平一 一 可 能 对 应 于 被 试 随时 间 变 化 的 知识 掌握 状态 或 能 力 表 现 水 平 。 常 用 的 随机 过 
程 分 析 方 法 主要 有 隐 马 尔 可 夫 模 型 (Hidden Markov Model, HMM) 和 动态 贝 叶 斯 网 络 


此 可 以 
每 个 时 刻 上 的 潜在 


并 且 ， 在 达到 同样 信 度 水 平时 ， 所 需 的 项 目 更 少 。 然 而 


一 个 隐藏 的 马尔 可 夫 链 随机 生成 不 可 观测 的 状 


态 随 机 序列 ， 再 由 每 个 状态 生成 一 个 观测 而 产生 一 个 观测 随机 序列 的 过 程 〈 李 航 ，2011 )。 


HMM 已 经 被 用 于 分 析 自 适应 同伴 辅导 系统 和 自 适应 测试 中 的 过 程 数 据 (Arieli-Attali et 


2019; Bergner et al., 2017)。HMM 还 可 以 被 
观察 序列 ， 并 得 到 各 个 时 间 点 上 的 潜在 状态 水 平 。Xiao 等 (2021) 使 月 
PIAAC 2012 两 个 问题 解决 项 目的 动作 序列 ， 识 别 出 潜 在 状态 和 状态 之 间 昌 
在 两 个 项 目 中 ， 作 答 正 确 的 被 试 都 更 专注 于 全 


而 作答 错误 者 则 更 有 可 能 使 用 较 短 的 动作 序列 3 


数据 驱动 的 HMM 方法 可 


] 来 拟 合 被 试 在 问题 解决 测验 或 类 似 系统 


以 帮助 研究 者 更 好 地 


作 序 列 背 后 的 行为 模式 和 认 知 转换 。 


4.2.2 动态 贝 叶 斯 网 络 


动态 贝 叶 斯 网 络 (DBN) 是 原始 贝 叶 斯 网 络 的 一 个 扩展 ， 用 于 建 模 包 含 时 间 


言 息 的 状 


al., 


PAY) 


H HMM 分 析 了 
的 转换 ， 结 果 发 现 
F 务 ， 且 更 经 常 使 用 有 效 的 工具 来 解决 问题 ， 
表现 出 犹豫 的 行为 。 由 此 可 以 看 出 ， 基 于 
里 解 被 试 在 复杂 问题 解决 任务 中 表现 出 的 动 


态 转换 ， 可 以 用 来 对 被 试 的 随机 反应 过 程 进行 建 模 (Kiiser et al., 2017; Reichenberg, 2018; 


Reye, 2004; Rowe & Lester，2010)。 图 5 展示 了 一 个 简单 的 有 3 个 时 间 点 的 DBN 的 路 径 


图 。DBN 有 两 个 基本 部 分 :一 部 分 是 分 别 对 应 


Nt 


DBN 框架 分 析 纵向 数 


图 5 一 个 DBN 的 路 径 图 


Levy (2019) 结合 


AE, HMM 是 DBN 的 一 个 特 


i 
基于 游戏 的 测评 〈Iseli et al., 2019) 4 


于 洪 在 能 力 和 观察 变量 的 圆 形 和 和 拢 形 ， 另 
部 分 为 表示 变量 之 间 随 时 间 变 化 的 依赖 结构 的 路 径 〈 箭 头 ) (Levy & Mislevy, 2016). 
sl], DBN 相 比 于 HMM 增加 了 从 t 一 1 时 刻 的 作答 xit_1 到 t 时 


可 以 


1 潜在 能 力 0ii 的 路 径 。DBN 已 被 应 用 于 测验 和 学 习 分 析 : Reye (2004) 论证 了 如 何 


这 为 该 模型 在 智能 辅 


FRA (Reye, 2004; VanLehn, 2008) 


FP 分 析 被 试 的 学 习 或 能 力 改 变 铺 平 了 道路 。 


Time | Time 2 Time 3 


Student i 


DBN、 认 知 诊断 建 模 和 过 程 数据 分 析 方 法 ， 分 析 了 一 球 针 对 
加 法 的 教育 游戏 Save Patch (Chung et al., 2010〉 的 数据 。Save Patch 游戏 包含 23 个 六 
次 递增 的 关卡 ， 每 个 关卡 有 若干 种 观测 反应 类 型 ， 每 种 反应 类 型 被 指定 对 应 于 若干 种 潜在 


(Levy & Mislevy, 2016, page 384) 


和 


TEER 
ERE HK 
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技能 。Levy (2019) 使 用 DBN 对 观测 序列 进行 分 析 ， 得 到 了 每 名 被 试 在 整个 游戏 过 程 中 每 
次 尝试 所 对 应 的 各 个 潜在 技能 的 掌握 程度 或 对 错误 观念 的 持 有 程度 等 结 

DBN 可 以 利用 不 同 模式 的 反应 序列 信息 ， 保 持 反 应 序列 的 序列 结构 ;使 用 潜在 状态 对 
不 同 的 潜在 特质 和 技能 建 模 ， 从 而 实现 认 知 诊断 。 无 论 HMM 还 是 DBN， 分 析 得 到 的 都 是 
随 着 过 程 变 化 的 离散 的 知识 掌握 状态 或 能 力 状态 。 然 而 ， 有 别 于 智能 辅导 测验 的 是 ， 在 心 
理 测 验 中 ， 研 究 者 一 般 想 要 得 到 的 是 被 试 稳 定 、 连 续 的 能 力 估计 值 。 这 些 条 件 限 制 了 DBN 
在 现代 评估 环境 下 利用 反应 过 程 数据 对 被 试 潜在 能 力 评 估 的 应 用 。 
4.3 结合 随机 过 程 思想 的 测量 模型 

被 试 在 问题 解决 测验 中 的 反应 过 程 部 分 处 于 被 试 的 控制 之 下 ， 即 被 试 决定 在 特定 状态 
下 采取 什么 步骤 ， 因 此 ， 在 给 定 潜在 能 力 的 条 件 下 ， 每 个 被 试 的 反应 过 程 都 可 以 被 视 为 一 
个 具有 条 件 一 阶 马 尔 可 夫 特 性 的 离散 时 间 的 随机 过 程 (Shu 等 ，2017)。 为 了 在 建 模 时 保留 
反应 过 程 指标 间 的 顺序 关系 ， 同 时 从 中 获得 连续 的 潜在 能 力 估 计 值 ， 有 研究 者 提出 了 结合 
随机 过 程 思 想 的 测量 模型 。 
4.3.1 马尔 可 夫 IRT 模型 

Shu & (2017) 提出 了 以 潜在 能 力 为 条 件 ， 以 操作 转移 〈 即 反应 序列 中 两 个 相 邻 的 操 
作 ) 为 观测 变量 的 Markov-IRT 模型 。 为 了 保留 操作 转移 的 频率 信息 ， 他 们 提出 了 多 级 计 分 
和 两 级 计 分 两 种 计 分 方式 。 如 在 两 级 计 分 框架 下 ， 用 ai 表征 从 操作 /到 操作 大 的 操作 转移 ， 
当 它 正确 时 记 为 1， 错 误 记 为 0， 则 被 试 ;选择 操作 转移 ax 的 概率 可 以 用 以 下 公式 表示 : 

Pa, =i) (1) 


1+exp(fjktajgði) 


其 中 ，Bix 代 表 操 作 转 移 被 选择 的 倾向 性 ，aj 被 用 来 链接 转移 aj 和 潜在 特质 9;， 可 以 看 出 ， 


公式 (1) 具有 两 参数 IRT (2PL-IRT) 模型 的 形式 。 为 了 在 纳入 低频 操作 转移 的 同时 确保 
估计 的 准确 性 ，Shu (2017) 还 在 Markov-IRT 模型 基础 上 提出 了 高 阶 的 Markov-IRT 模 
型 ， 通 过 将 操作 转移 分 组 来 降低 某 些 转 移 发 生 频 率 过 低 造 成 的 数据 稀疏 所 带 来 的 影响 。 在 
使 用 Markov-IRT 模型 进行 分 析 时 ， 以 所 有 可 能 的 操作 转移 构建 指标 ， 并 且 在 计 分 时 考虑 各 
个 操作 转移 的 重复 次 数 ， 充 分 利用 了 操作 和 转移 空间 所 携带 的 信息 。 然 而 该 方法 的 分 析 对 
象 为 计 分 后 的 操作 转移 频率 矩阵 ， 并 未 保留 操作 转移 的 先后 顺序 ， 并 且 ， 直 接 以 操作 转移 
表征 反应 过 程 的 做 法 具有 局 限 性 ， 如 在 某 些 任务 中 ， 不 同 问题 状态 下 ， 相 同 的 操作 转移 可 
能 导致 完全 相反 的 结果 。 
4.3.2 连续 时 间 动 态 选 择 模 型 
为 了 在 分 析 中 同时 考虑 事件 历史 和 发 生 时 间 ，Chen (2020) 将 被 试 的 反应 过 程 看 作 有 
标记 的 点 过 程 ， 提 出 了 一 种 标记 点 过 程 的 参数 化 方法 ， 即 连续 时 间 动 态 选 择 Ccontinuous- 
time dynamic choice, CTDC) 模型 。 在 CTDC 模型 中 ， 对 下 一 时 刻 的 事件 类 型 ) 的 选择 用 条 
件 概率 密度 函数 (Conditional density functions) 建 模 ， 它 依赖 于 被 试 的 潜在 问题 解决 能 力 0、 
事件 历史 Fxe 和 任务 难度 Bk， 有 具有 多 分 类 logit 模型 的 形式 : 
fr Olt, Fre, 9, Br) gear oe (2) 
其 中 Sj(Fike) 代 表 对 于 任务 k， 可 以 在 时 刻 t 立 即 发 生 的 事件 类 型 集 ，Vij (Fr) 为 事件 类 型 j 的 
有 效 性 上 度量， 有效 为 1， 无 效 为 0。 而 下 一 步 操作 的 时 间 稚 则 用 基础 强度 (Ground intensity) 
函数 建 模 ， 它 依赖 于 被 试 的 行为 速度 特质 t 和 任务 特点 yi.， 有 具有 指数 函数 的 形式 : 
Ax (tlFre, t, Yk) = exp(Yr + T) (3) 


er 
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问题 解决 能 力 6 和 行为 速度 t 这 两 个 潜在 特质 服从 二 元 正 态 分 布 。CTDC 模型 通过 对 事件 历 
史 信 息 的 设 定 ， 可 以 基于 一 个 或 多 个 任务 上 的 过 程 数 据 估计 每 个 被 试 的 问题 解决 能 力 和 操 
作 速 度 。 然 而 ， 该 模型 虽然 纳入 了 时 间 信 息 ， 但 实际 上 对 潜在 能 力 与 反应 速度 是 分 开 建 模 
的 ， 仅 假设 二 者 服从 多 元 正 态 分 布 ， 此 外 ， 这 种 方法 对 于 任务 特征 和 反应 过 程 的 分 析 还 不 
够 深入 一 一 每 个 任务 仅 有 一 个 难度 参数 ， 无 法 区 分 反应 过 程 中 每 种 事件 的 独特 属性 。 
4.3.3 马尔 可 夫 决 策 过 程 测量 模型 

马尔 可 夫 决 策 过 程 (Markov decision process, MDP) 是 一 个 基于 纵向 成 本 效益 分 析 的 
不 确定 性 决策 模型 (Puterman, 1994)， 它 包含 目标 、 动 机 、 任 务 理解 “信念 ) 和 问题 解决 
能 力 这 四 个 要 素 。Lamar (2018) 探讨 了 在 复杂 决策 问题 任务 中 ， 将 MDP 用 作 测 量 模型 由 
过 程 数 据 中 所 记录 的 行动 和 采取 行动 时 的 问题 状态 来 推断 个 体 特征 的 方法 ， 提 出 了 马尔 可 
夫 决 策 过 程 测量 模型 (MDP measurement model，MDP-MM)。 对 于 一 个 状态 集 为 $， 操 作 
集 为 4 的 任务 ，MDP-MM 描述 了 在 状态 s 下 被 试 j 选 择 行动 a 的 条 件 概率 (Lamar，2018): 

exp(BjQ(s,alB)) 

plals,B) = Traa F oe 
其 中 Bj; 类似 于 IRT 中 的 潜在 能 力 ， 它 服从 对 数 正 态 分 布 。Q(s,alBj) 是 一 个 递归 函数 ， 代 表 
了 行动 的 价值 ， 包 含 了 当前 行动 的 即时 奖励 (得 分 ) 和 之 后 步骤 的 期 望 得 分 。 模 拟 研 究 表 
明 ，MDP-MM 能 够 清楚 地 将 “高 能 力 - 低 动机 ”条 件 下 产生 的 数据 集 与 “低能 力 -高 动机 ”条 件 
下 产生 的 数据 集 分 离开 来 。Lamar (2018) 还 用 MDP-MM 分 析 了 一 个 微生物 博弈 游戏 的 实 
际 数据 ， 其 能 力 估计 值 与 后 测 得 分 有 显著 正 相 关 。 不 过 ，MDP-MM 限制 较 多 ， 使 用 时 要 根 
据 具 体 任 务 为 各 种 操作 和 /或 结果 定义 合理 的 奖励 参数 (reward parameterization), Ai FEMA 
励 参 数 自由 估计 ， 则 可 能 出 现 奖励 值 与 构 念 方向 相反 ， 使 得 所 无 法 代表 被 试 能 
4.3.4 序列 反应 模型 

为 了 充分 利用 问题 解决 测验 过 程 数据 对 被 试 潜在 能 力 水 平 进行 估计 ， 针 对 结构 良好 类 
问题 情景 ，Han 等 (2021) 提出 用 问题 状态 序列 表征 完整 反应 过 程 的 信息 抽取 方式 ， 并 提 
出 了 可 以 对 整个 问题 状态 序列 进行 分 析 的 序列 反应 模型 CSequential Response Model, 
SRM). SRM 假设 被 试 在 下 一 时 刻 选择 的 状态 S41 与 他 们 的 潜在 能 力 0; 和 当前 时 刻 的 状态 St 
可 关 ， 该 模型 具有 多 分 类 logit 的 形式 : 


P(Sit44 = xx [Sit = x;,0;,4,R) = 


SSN 


exp (Xx xp tlt 4°91) 

Pxnemx exp (x jn + [j,i) 
其 中 Xx 是 状态 转移 参数 ， 代 表 了 由 状态 xj 转 移 到 状态 x 的 倾向 性 ， 太 ,x 是 一 个 指示 函数 ， 
当 状 态 转移 xj 一 xxk 正 确 时 取 1， 反 之 取 -1; Mx 代表 当前 状态 为 x 的 情况 下 ， 下 一 时 刻 所 有 
可 能 的 状态 集合 ， 奢 ,x 和 Mx 都 是 关于 任务 本 身 的 预 设 规则 ， 用 只 表示 。Han 等 (2021) 通 
过 对 PISA 2012 问题 解决 测验 “车 票 " 任 务 过 程 数据 的 分 析 ， 验 证 了 SRM 在 实际 数据 中 估计 
被 试 潜在 能 力 及 题目 状态 转移 参数 的 可 行 性 与 合理 性 。SRM 能 够 对 完整 的 反应 序列 进行 有 
效 分 析 ， 得 到 的 题目 特征 参数 〈 状 态 转移 参数 ) 可 以 为 深入 了 解 任务 特征 提供 有 益 信 息 ， 
得 到 的 被 试 能 力 估计 值 具备 可 解释 性 ， 有 助 于 了 解 不 同 反应 模式 的 能 力 水 平 。 不 过 ， 合 理 
应 用 SRM 进行 分 析 的 前 提 是 定义 良好 的 状态 序列 ， 对 于 结构 不 良 问题 中 问题 状态 与 问题 状 
态 转移 的 定义 方式 仍 需 进一步 探讨 。 
4.3.5 结合 随机 过 程 思想 的 测量 模型 总 结 

除了 MDP-MM 外 ， 此 类 模型 主要 适用 于 操作 集 有 限 的 简单 测验 情景 ， 需 要 提前 穷 举 
出 任务 中 的 所 有 行为 ， 并 (由 专家 〉 事先 判断 每 一 种 行为 的 正确 性 〈 或 有 效 性 )， 而 MDP- 
MM 需要 提前 定义 奖励 参数 ， 再 递归 计算 行动 价值 。Markov-IRT 中 的 操作 转移 ，CTDT 中 
的 事件 类 型 ， MDP-MM 中 的 行动 和 SRM 中 的 状态 转移 都 是 对 行为 的 不 同 表征 方式 。 对 于 
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行为 正确 性 (或 有 效 性 ) 的 判断 ， 在 Markov-IRT 中 体现 在 计 分 上 ， 其 他 三 个 模型 中 以 多 分 
类 logit 模型 中 的 系数 表示 : 即 CTDT 中 的 Vj(Fkxe)，MDP-MM 中 的 Q(s,alBj) 和 SRM 中 的 
Exe 它们 的 之 间 的 不 同体 现在 : Markov-IRT 仅 能 保留 相 邻 操作 间 的 顺序 ， 而 其 他 三 个 模 
型 以 状态 表征 ， 蕴 含 了 〈 部 分 ) 历史 行为 信息 ; 这些 模型 中 只 有 CTDT 利用 了 反应 时 间 ， 
但 CTDT 只 能 获得 任务 的 整体 难度 参数 ， 而 Markov-IRT 和 SRM 可 以 获得 每 种 行为 的 倾向 
性 。 
4.4 对 当前 过 程 数 据 能 力 评估 模型 的 整体 评价 

综 上 所 述 ， 要 想 利用 能 力 评估 模型 由 观测 指标 估计 潜在 能 力 水 平 ， 合 理 建 构 指 标 与 潜 
在 能 力 之 间 对 应 关系 是 必 不 可 少 的 ， 如 “3 过 程 数据 的 特征 抽取 方法 ”部 分 所 述 ， 目 前 这 一 
过 程 仍 需 借助 专家 经 验 无论 是 分 析 前 还 是 分 析 后 )。 不 同 种 类 评估 模型 的 可 解释 性 依赖 于 
它们 利用 的 指标 与 潜在 结构 之 间 的 假设 强 弱 。 心 理 测量 模型 重点 关注 潜在 能 力 的 估计 ， 除 
了 传统 测量 模型 的 直接 应 用 ， 也 有 研究 者 对 现 有 模型 或 估计 步骤 提出 了 改进 。 此 类 模型 使 
用 的 过 程 指标 一 般 与 潜在 能 力 之 间 有 比较 强 的 对 应 关系 ， 分 析 结 果 可 解释 性 强 〈 两 步 条 件 
期 望 法 除外 )， 但 受 限 于 局 部 独立 性 假设 ， 分 析 时 不 包含 指标 之 间 的 顺序 信息 。 随 机 过 程 模 
型 关注 对 反应 过 程 的 建 模 ， 保 留 了 反应 路 径 信 息 ， 但 指标 与 潜在 结构 之 间 的 假设 较 弱 ， 


S 时 先 采用 数据 驱动 模型 获得 潜在 状态 水 平 再 进行 理论 解释 ， 且 不 关注 稳定 而 连续 的 潜在 能 
人 力 估 计 值 。 在 使 用 教育 和 心理 测验 对 被 试 的 知识 、 技 能 和 能 力 等 特质 进行 测量 时 ， 最 主要 
w, 的 目的 是 得 到 被 试 潜在 特质 的 有 效 估计 值 。 从 这 一 点 来 看 ， 随 机 过 程 模型 很 难 满足 教育 和 
= 心理 测验 对 稳定 连续 的 能 力 特质 进行 有 效 估计 的 需要 。 最 后 ， 结 合 了 随机 过 程 思想 的 心理 
= 测量 模型 兼 具 两 者 优点 ， 分 析 对 象 为 任务 中 的 行动 序列 ， 可 以 保留 行动 的 先后 顺序 ， 且 由 
N 专家 规定 与 能 力 方向 相同 的 指标 系数 或 计 分 方式 ， 具 有 一 定 可 解释 性 ， 因 而 可 以 利用 比较 
— 完整 的 反应 过 程 信息 获得 连续 的 潜在 能 力 估计 值 。 但 此 类 模型 需要 穷 举 任务 中 的 所 有 行动 ， 
N 多 适用 于 操作 集 有 限 的 简单 任务 。 因 此 ， 如 何 充分 利用 反应 过 程 信息 ， 更 准确 地 评估 被 斌 
© 的 潜在 能 力 ， 同 时 兼 具 分 析 结果 的 科学 合理 和 可 解释 性 ， 还 有 进一步 研究 的 空间 。 各 个 模 
nt 型 的 适用 情景 ， 优 缺点 以 及 研究 中 使 用 的 实际 数据 集 和 分 析 软件 工具 汇总 于 表 2。 
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表 2 基于 计算 机 的 问题 解决 测验 过 程 数据 的 能 力 评估 模型 总 结 
类 型 模型 适用 情景 过 程 指标 要 求 EA 不 足 实证 数据 集 模型 分 析 软 件 
心理 测量 模 多 维 IRT 模 型 (Hesse et al., 测验 结构 多 维 需 提前 定义 好 指标 与 各 ” 具有 理论 依据 ， 估 计 得 到 的 洪 受 限于 指标 定义 方式 ， 可 ATC21S 合作 问题 解决 测验 ConQuest 2.0 软件 (Wu et al. 2007 ). 
型 2015; Siddiq et al., 2017; 个 维度 间 的 关系 在 能 力 值 有 明确 的 心理 学 含义 ” ”能 造成 信息 的 遗漏 ， 无 法 
Yuan et al., 2019) 对 行为 顺序 进行 分 析 
主要 关注 潜 多 水 平 IRT 模 型 (Wilson et 小 组 合作 测验 需 提 前 定义 指标 与 测量 ATC21S-ICT 测验 Mplus 软件 (Muthén & Muthén, 1998- 
REJA al, 2017) 构 念 的 关系 AOI) 
计 认 知 诊断 模型 (Zhan & 操作 集 有 限 的 简单 任务 “标定 过 Q PARENTER ER 在 评估 被 试 连续 的 潜在 问题 解 所 用 指标 无 法 反应 序列 的 PISA 2012 问题 解决 测验 “车 R 程序 包 GDINA (Ma & de la Torre, 
Qiao , 2020) 决 能 力 的 同时 ， 为 被 试 的 问题 整体 顺序 及 操作 频率 ; 票 ” 单 元 CP038Q01 题 2020) 
解决 策略 提供 更 详细 的 诊断 信 Q HEREKE A R 程序 包 TAM (Robitzsch et al., 
息 2020) 
改进 的 多 水 平 混合 IRT 模型 路 径 清晰 且 可 和 穷 举 的 任 。 提前 判定 每 种 可 选 操作 利 言 息 全 面 具有 任务 特异 性 的 独特 编 PISA 2012 问题 解决 测验 “ 交 。 ”Mplus 软件 (Muthén and Muthén, 1998- 
(Liu et al., 2018; 刘 红 云 务 的 正 误 ， 并 采取 累积 编 ”可 以 同时 估计 出 过 程 水 平和 个 码 形式 通 ” 单 元 CP007Q02 题 2015) 
等 ，2020) 码 计 分 体 水 平 上 估计 能 力 值 ， 并 且 对 学 生 水 平 能 力 估计 值 仅 利 
过 程 水 平 策略 进行 分 类 最 后 一 步 的 作答 信息 
两 步 条 件 期 望 方法 (Zhang et ”无 特殊 要 求 包含 过 程 信息 的 特征 向 ”在 对 潜在 特质 进行 估计 时 纳入 利用 的 过 程 信息 具有 人 解释 PIAAC 2012 的 PSTRE 测验 R 程序 包 glmnet (Friedman et al., 
al., 2020) 量 了 过 程 信 息 性 问题 2009), R 程序 包 Procdata (Tang, 
Zhang et al., 2021) 
随机 过 程 模 隐 马 尔 可 夫 模 型 (Bergner et ”潜在 状态 随 进 程 发 生变 ”指标 在 时 间 上 连续 保持 反应 序列 的 序列 结构 ; 使 无 法 如 心理 测量 模型 那样 自 适 应 同伴 辅导 系统 (Walker Matlab Bayes Net 工具 箱 (Murphy， 
型 al., 2017; Xiao et al., 2021) 化 的 任务 潜在 状态 对 不 同 的 潜在 特质 获得 与 被 试 潜在 能 力 相符 etal., 2009); PIAAC 2012 2001) 
和 技能 建 模 ， 从 而 实现 认 知 诊 合 的 连续 且 稳 定 的 估计 值 。 的 PSTRE 测验 及 程序 包 depmixS4 (Visser & 
主要 关注 对 be Speekenbrink, 2010) 
随机 过 程 建 R 程序 包 nnet (Venables & Ripley， 
模 2002) 
动态 贝 叶 斯 网 络 (Levy, 指标 在 时 间 上 连续 ， 指 教育 游戏 Save Patch (Chung ”OpenBUGS 软件 (Lunn et al., 2009) 
2019) 标 与 潜在 特质 之 间 有 明 等 ，2010) R 程序 包 gRain (Hojsgaard, 2012) 
确 的 对 应 关系 
结合 随机 过 马尔 可 夫 IRT 模型 (Shu et 操作 集 有 限 的 简单 任 过 程 指标 即 操作 转移 ， 同时 考虑 了 正确 与 错误 的 操作 将 反应 序列 分 割 为 离散 的 NAEP-TEL 的 泵 修理 任务 MIRT 软件 (Haberman,2013) 
程 思想 的 测 al., 2017) 务 ， 且 操作 转移 在 整个 ” 需 提前 判定 各 个 操作 转 ”及 其 频率 ， 利 用 信息 较为 全 面 操作 转移 指标 ， 丢 失 了 顺 
量 模 型 反应 过 程 中 的 正 误 不 变 移 的 正 误 并 计 分 序 信 息 
所 利用 的 操作 序列 在 实际 
在 对 随机 过 应 用 具有 局 限 性 
程 建 模 基础 ” ”连续 时 间 动 态 选择 模型 事件 有 限 的 简单 任务 提前 判定 任务 中 每 种 事 ”可 以 基于 一 个 或 多 个 任务 上 的 。 ”每 个 任务 仅 有 一 个 难度 参 PISA2012 问题 解决 测验 中 自 编 最 大 边际 似 然 估 计 程 序 
上 进行 能 力 CChen，2020) 件 的 有 效 性 ， 获取 每 个 ”过 程 数 据 估计 出 每 个 学 生 的 问 数 ， 无 法 区 分 反应 过 程 中 “车 票 "单元 题目 CP038Q01 
估计 BEER DEAN TAD 题解 决 能 力 和 操作 速度 每 种 事件 的 独特 属性 和 题目 CP038Q02 
马尔 可 夫 决 策 过 程 测量 模型 状态 集 和 操作 集 都 明确 ”提前 为 各 种 操作 和 /或 利用 强化 学 习 原 理 考虑 多 步 又 模型 需要 设 定 参 数 较 多 ， 公开 教育 游戏 Microbes (Red 。” C++ 程序 语言 自 编 参 数 估计 程序 
(Lamar, 2018) 的 结构 良好 的 任务 结果 定义 合理 的 奖励 参 信息 对 能 力 进 行 估计 释放 参数 HTP AY AES Hill Studios, n.d.) 
数 致 估计 值 不 合理 


序列 反映 模型 (Han et al., 有 最 佳 解决 策略 的 结构 ”提前 区 分 每 种 状态 转移 ” 可 以 利用 完整 的 反应 序列 ， 获 。 ”结构 不 良 问 题 情 景 中 的 数 。” PISA 2012 问题 解决 测验 “车 ” RR 语言 自 编 贝 叶 斯 估计 程序 
2021) 良好 任务 的 正 误 得 被 试 能 力 参 数 和 每 个 状态 转 据 预 处 理 方式 仍 需 进一步 。 票 "单元 CP038Q02 题 
移 的 倾向 性 参数 探讨 
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5 问题 与 展望 


为 了 利用 基于 计算 机 的 问题 解决 测验 获得 有 效 的 能 力 估计 值 ， 科 学 合理 地 分 析 过 程 数 
据 是 必 不 可 少 的 。 对 于 过 程 数据 的 分 析 一 般 分 为 特征 抽取 和 能 力 评估 模型 建构 这 两 部 分 ， 
本 文 介 绍 了 这 两 方面 最 新 的 方法 学 研究 ， 并 对 每 种 方法 的 适用 情景 、 优 缺点 进行 了 总 结 ， 
可 以 为 方法 学 研究 者 快速 掌握 问题 解决 测验 中 过 程 数 据 分 析 方 法 的 新 进展 提供 参考 ， 以 促 
进 方法 学 上 的 创新 ， 还 可 以 为 实际 应 用 者 在 分 析 数 据 时 选择 恰当 的 方法 提供 参考 ， 对 后 续 
研究 的 展开 有 指导 意义 。 目 前 关于 如 何 提 取 过 程 数据 特征 和 利用 过 程 数 据 评估 被 试 的 潜在 
能 力 这 一 议题 的 研究 仍 处 于 初始 阶段 ， 基 于 前 文 总 结 ， 存 在 以 下 几 个 可 以 改进 的 方面 。 
5. 1 对 过 程 数 据 进行 分 析 时 的 可 解释 性 问题 
在 对 过 程 数据 进行 分 析 的 各 个 阶段 保证 心理 学 层面 的 可 解释 性 是 一 项 值得 关注 的 话题 
对 保证 测验 结果 的 公正 性 、 有 效 性 和 客观 性 有 重要 意义 。 在 对 过 程 数据 进行 特征 提取 时 ， 
利用 自 下 而 上 的 方式 可 以 直接 获得 反应 序列 或 关键 特 征 的 数字 表征 ， 然 而 这 些 指标 与 目标 
心理 变量 间 的 关联 机 制 却 相对 难以 解释 和 理解 。 在 对 过 程 指标 建 模 时 ， 应 保证 估计 得 到 的 
潜在 能 力 水 平 与 所 测量 的 潜在 构 念 水 平 相 匹 配 。 研 究 人 员 在 对 过 程 数据 进行 分 析 时 ， 应 遵 
> 从 ECD 理论 “基于 证 据 的 推理 ”理念 ， 在 提取 证 据 时 应 结合 心理 学 理论 ， 关 注 证 据 指标 的 心 
理学 含义 ， 并 尝试 使 用 解释 性 强 的 算法 进行 建 模 。 此 外 ， 若 想 利 用 过 程 数据 深入 探究 问题 
解决 的 认 知 加 工 过 程 ， 仍 需要 测验 开发 者 、 领 域 专家 和 心理 测量 专家 共同 参与 决定 。 对 于 
错误 策略 的 区 分 与 解释 ， 可 以 首先 由 自 下 而 上 的 方式 提取 出 蕴含 错误 信息 的 特征 ， 再 进行 
聚 类 分 析 ， 不 同 的 特征 组 合 可 能 反映 了 不 同 的 策略 类 型 ， 但 聚 类 结果 仍 需 专家 解读 。 
5. 2 过 程 数据 的 特征 提取 应 纳入 更 多 信息 
在 保证 所 提取 特征 的 可 解释 性 的 同时 ， 应 该 尽 可 能 多 地 从 过 程 数 据 中 抽取 有 价值 的 信 
息 。 当 前 对 于 过 程 数 据 的 利用 大 多 基于 行为 表现 信息 ， 只 有 少 部 分 研究 利用 了 过 程 数 据 中 
记录 的 时 间或 语言 信息 (Chen, 2020;， 袁 建 林 ，2019)， 未 来 研究 应 考虑 如 何 将 这 些 行为 表 
现 以 外 的 多 模 态 信息 纳入 到 测量 模型 中 ， 以 对 能 力 进 行 更 准确 的 估计 。 此 外 ， 为 了 应 用 于 
大 规模 标准 化 测验 ， 无 论 哪 种 信息 提取 方式 ， 都 应 能 实现 信息 《指标 ) 的 自动 提取 与 评分 ， 
对 于 多 模 态 数据 的 指标 自动 提取 与 合理 评分 也 有 具有 一 定 的 挑战 性 。 
5. 3 实现 更 复杂 问题 情景 下 的 能 力 评估 
一 当前 的 随机 过 程 以 及 结合 了 随机 过 程 思想 的 测量 模型 都 假设 在 给 定 被 试 潜在 能 力 的 条 
O 件 下 ， 被 试 的 反应 过 程 具 〈 条 件 ) 一 阶 马 尔 可 夫 性 质 。 这 在 简单 的 测验 情境 中 是 成 立 的 ， 
但 是 在 一 些 复杂 的 反馈 较 多 的 动态 问题 情境 中 ， 有 条 件 的 一 阶 马 尔 可 夫 性 质 可 能 被 违背 。 
从 表 2 中 “实证 数据 ?可 以 看 出 ， 目 前 可 供 研究 者 使 用 的 实证 数据 集 并 不 丰富 ， 大 多 集中 于 
PISA, PIAAC 和 ATC21S 这 三 个 大 型 测验 项 目 。 特 别 地 ，PISA 问题 解决 测验 “车 票 ” 题 的 使 
频率 较 高 ， 主 要 因为 这 道 题 的 题 型 结构 简单 。 这 也 从 侧面 反映 出 当前 模型 在 分 析 复 杂 任 
务 时 的 局 限 性 。 因 此 ， 在 提出 开发 更 多 更 复杂 测验 需求 的 同时 ， 方 法 研究 者 也 应 提供 相应 
的 数据 分 析 处 理 方法 。 此 外 ， 过 程 性 测验 中 也 可 能 存在 影响 被 试 表现 的 协 变量 ， 如 有 研究 
表明 问题 解决 坚持 性 和 开放 性 等 因素 会 显著 影响 学 生 数 字 化 环境 中 的 问题 解决 能 力 测验 上 
A (HERE 等 ，2016)。 未 来 研究 还 可 以 考虑 构建 适用 于 过 程 数 据 的 包含 协 变 量 的 评 
估 模 型 ， 以 进一步 提高 能 力 估 计 精 度 。 
5.4 从 理论 研究 走向 实际 应 用 
对 于 过 程 数据 分 析 方 法 的 理论 研究 需要 实践 检验 其 实际 效能 。 一 方面 ， 无 论 分 析 方 法 
使 用 了 多 么 复杂 的 测量 模型 或 者 数据 挖掘 技术 ， 最 终 都 应 服务 于 实际 。 从 表 2 的 最 后 一 列 
可 以 看 出 ， 大 部 分 现 有 评估 模型 都 有 相应 的 参数 估计 软件 或 软件 包 可 以 实现 参数 估计 ， 但 
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是 对 于 针对 过 程 数 据 开发 的 新 模型 ， 则 可 能 需要 自 编 程序 实现 参数 估计 ， 这 使 得 模型 应 用 
门槛 较 高 。 因 此 应 鼓励 新 模型 的 开发 者 公开 参数 估计 代码 ， 或 开发 简单 易 上 手 的 软件 包 ， 
以 便 模 型 的 使 用 与 推广 。 另 一 方面 ， 为 了 方便 实际 应 用 者 ， 测 验 开发 者 还 可 以 考虑 如 何在 
现 有 分 析 方 法 的 基础 上 ， 开 发 用 户 友 好 的 问题 解决 测试 系统 ， 实 现 过 程 数据 的 自动 评分 、 
能 力 评 估 结 果 以 及 知识 技能 诊断 报告 的 即时 生成 等 功能 。 
5.5 不 同 领域 分 析 方 法 间 的 融合 与 借鉴 

本 文 聚焦 于 梳理 问题 解决 测验 的 特征 抽取 与 能 力 评估 研究 ， 目 前 特征 提取 的 方法 和 能 
力 评估 模型 之 间 并 非 完 全 匹配 ， 大 多 数 以 数据 驱动 方式 抽取 的 特征 由 于 没有 建立 与 潜在 能 
力 之 间 的 对 应 关系 ， 可 能 仅 适 用 于 聚 类 和 预测 等 分 析 目 标 ， 而 无 法 应 用 于 能 力 评估 模型 中 。 
而 心理 测验 的 主要 目的 就 是 对 被 试 的 潜在 能 力 进行 准确 的 测量 ， 研 究 者 应 开发 更 多 可 以 应 
于 能 力 评估 模型 的 特征 提取 方式 。 此 外 ， 除 了 问题 解决 能 力 ， 对 于 许多 其 它 高 阶 能 力 的 
测量 也 初步 实现 了 计算 机 化 ， 如 批判 性 思维 (Liu etal., 2016; Song & Sparks，2019)、 创 造 
性 思维 、 学 科 素 养 等 ， 自 适应 学 习 与 辅导 系统 中 往往 也 包含 了 对 能 力 的 判断 。 问 题解 决 测 
验 的 过 程 数 据 分 析 是 目前 研究 最 多 的 测验 类 型 之 一 ， 由 于 问题 解决 测验 更 关注 能 力 的 评价 ， 
因此 在 测量 模型 的 建构 上 研究 也 比较 丰富 ， 而 其 它 类 型 测验 在 能 力 评估 模型 上 的 创新 研究 
还 比较 有 限 。 一 方面 ， 问 题解 决 测验 过 程 数 据 的 分 析 思 路 对 于 其 它 领域 测验 的 数据 分 析 具 
借鉴 性 ， 比 如 以 专家 系统 定义 指标 的 流程 大 体 相 同 。 另 一 方面 ， 每 种 主题 的 测验 都 有 其 
特殊 性 ， 如 问题 解决 测验 或 者 学 科 素 养 测 验 更 加 关注 能 力 的 准确 估计 ， 而 有 些 测验 则 更 加 
关注 反应 过 程 ， 如 批判 性 思维 测验 更 加 关注 论证 的 过 程 ， 因 此 在 借鉴 不 同 领 域 的 分 析 方 法 
时 要 视 具体 情况 而 定 。 
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Abstract: Computer-based problem-solving tests can record respondents’ response processes in real 
time as they explore tasks and solve problems and save them as process data. We first introduce the 
analysis process of process data and then present a detailed description of the new advances in 
feature extraction methods and capability evaluation modeling commonly used for process data 
analysis with respect to the problem-solving test. Future research should pay attention to improving 
the interpretability of analysis results, incorporating more information in feature extraction, enabling 


capability evaluation modeling in more complex problem scenarios, focusing on the practicality of 
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the methods, and integrating and drawing on analytical methods from different fields. 
Key words: computer-based problem-solving test, process data, feature extraction, ability 
evaluation model 
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